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摘 要 : [目的 /意义 ] 基 于 小 数据 构建 社交 类 学 术 App 用 户 动态 画像 模型 ,为 社交 类 学 术 App 平台 有 效 预 测 用 户 行为 演化 

趋势 、 提 高 精准 服务 水 平 提供 思路 和 参考 。|[ 方法 “过程 ] 首先 ,在 深度 剖析 小 数据 概念 及 特点 的 基础 上 ,结合 社 

交 类 学 术 App 特征 ,从 用 户 表层 行为 和 深层 驱动 因素 两 方面 设计 动态 画像 标签 体系 ;其 次 ,采集 与 用 户 强 相关 、 高 

价值 的 小 数据 作为 画像 的 数据 支撑 ,并 明确 画像 小 数据 的 获取 及 处 理 方法 ;最 后 提出 实现 动态 画像 的 研究 方法 并 

TT 形成 整体 框架 模型 。[ 结果 /结论 ] 基于 小 数据 构建 社交 类 学 术 App 用 户 动 态 画 像 可 有 效 细 化 画像 粒度 ,改善 以 
> 往 画 像 滞 后 性 葬 端 ,对 数据 驱动 情境 下 社交 类 学 术 App 平台 提升 精准 服务 水 平 有 重要 的 参考 价值 。 


a 社交 类 学 术 App 用 户 动态 画像 ”行为 预测 
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随 着 互联 网 的 发 展 和 信息 的 快速 更 新 ,传统 的 线 
流 模 式 已 无 法 满足 学 者 多 元 化 .个 性 化 的 知识 需 
求 和 专业 性 .及 时 性 的 服务 需求 ,以 丁香 园 、 小 木 虫 等 
汰 代表 的 社交 类 学 术 移动 应 用 程序 (以 下 简称 “社交 
类 学 术 App” ) 已 成 为 科研 用 户 获取 知识 资源 、 进 行 学 
术 奖 流 的 新 途径 。 作 为 依托 用 户 交互 行为 存在 的 新 
兴 张 台 , 用 户 的 持续 使 用 是 其 运营 发 展 的 关键 ,因此 ， 


提 作 精准 服务 ,成 为 平台 运营 面临 的 重大 挑战。 

用 户 画像 作为 勾画 目标 用 户 ,提高 决策 效率 的 有 
效 工具 , 现 已 在 多 领域 得 到 广泛 应 用 。R. J. Holden 
等 从 年 龄 .性 别 . 经 济 背景 等 维度 构建 了 老年 用 户 健康 
角色 模型 ; M，Trusov 等 通过 分 析 个 人 资料 和 行为 
数据 描绘 消费 者 兴趣 偏好 ,这 种 根据 用 户 基本 属性 
与 行为 特征 的 画像 对 识别 典型 群体 有 一 定 指导 意义 ， 
但 画像 粒度 粗糙 ,“ 千 人 一 面 "的 角色 模型 无 法 挖掘 出 
用 户 深层 需求 。 因 此 部 分 学 者 尝试 从 用 户 个 体 小 数据 
层面 构建 更 为 全 面 精准 的 画像 模型 : 陈 臣 等 通过 采集 
图 书馆 用 户 小 数据 构建 了 面向 读者 个 性 化 服务 的 精准 
画像 模型 中 ; 孙 丹 起 等 认为 依托 小 数据 可 以 根据 用 户 


全 方位 行为 特征 及 情境 感知 构建 生动 全 面 的 “用 户 自 
画像 ””。 引 入 全 面 表征 用 户 个 体 特征 的 小 数据 可 有 
效 细 化 画像 粒度 ,但 目前 基于 小 数据 构建 的 画像 多 为 
采集 某 一 时 间 节 点 数据 的 即时 性 画像 ,生成 的 角色 模 
型 是 一 个 相对 静止 的 状态 ,只 能 展现 用 户 当时 当下 的 
行为 特征 ,无 法 对 其 未 来 行为 趋势 作出 合理 推断 。 此 
外 , 面 对 数 据 激 增 ,即时 性 静态 画像 多 采用 重复 迭代 的 
方式 重新 刻画 用 户 全 貌 , 这 种 方式 效率 低下 , 且 示 充分 
利用 之 前 的 画像 信息 ,实用 价值 有 待 提升 。 为 数 不 多 
的 用 户 动态 画像 的 探索 性 思想 多 面向 图 书馆 领 
域 "… , 尚 缺乏 在 社交 类 学 术 App 情境 下 的 应 用 尝试 。 

综 上 所 述 ,构建 细 粒 度 的 用 户 动态 画像 是 完整 展 
现 用 户 概 念 全 貌 .实时 洞察 用 户 行为 演化 、 提 高 平台 精 
准 服务 水 平 的 重要 方式 。 因 此 ,本 文 以 社交 类 学 术 
App 为 研究 对 象 ,基于 与 社交 类 学 术 App 用 户 强 相关 、 
高 价值 全 方位 的 小 数据 构建 突破 用 户 表层 行为 差异 
的 动态 画像 模型 。 在 描述 用 户 行为 特征 的 基础 上 探求 
影响 其 行为 的 动因 与 触发 点 ,勾勒 出 具有 稳定 性 、 持 续 
性 动态 性 的 用 户 角 色 , 以 便 平台 运营 者 深刻 理解 用 户 
行为 需求 及 演化 趋势 ,从 而 预见 性 地 提出 个 性 化 运营 
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有 于 
张 莉 曼 ， 张 向 先 ， 全 全 贷 邯 a 


(5):350=539, 


策略 ,助力 产品 与 用 户 的 精准 对 接 。 
1 相关 研究 与 问题 的 提出 


1.1 小 数据 

小 数据 概念 最 初 由 康 奈 尔 大 学 的 D. Eestrin 教授 
发 现 并 提出 ,认为 可 通过 对 用 户 日 常 行为 全 方位 数据 
的 追踪 ,动态 监控 用 户 的 健康 变化 号 。 目 前 学 界 对 小 
数据 暂 无 明确 统一 的 定义 ,但 均 认 可 小 数据 是 以 人 或 
团队 为 中 心 的 全 方位 、 多 层次 行为 模式 和 情境 感知 的 
全 部 数据 集合 。 随 着 时 间 的 推移 ,这 些 数据 集合 不 
断 丰 富 ,为 动态 挖掘 用 户 需求 偏好 及 行为 规律 提供 了 
有 力 支撑 。 当 前 关于 小 数据 的 研究 集中 于 个 性 化 推 
荐 "及 精准 服务 "" 、 兴 趣 发 现 与 预测 中 以 及 小 数据 融 
命 的 理论 探讨 ”等 方面 , 尚 缺 乏 依 托 小 数据 构建 学 术 
A 防卫 像 模型 的 概念 构想 。 
一 通过 对 小 数据 相关 研究 及 应 用 的 梳理 ,本 文 认为 
涉猎 据 具 有 以 下 典型 特征 :DD 用户 中 心性 。 与 关注 宏 
观 台 体 的 大 数据 有 别 ,小 数据 是 围绕 用 户 展开 的 .能 
属于 用 户 真实 内 在 的 个 体 化 数据 ,价值 密度 更 高 ,为 精 
;自嘲 述 用 户 全 方位 行为 特征 及 概念 全 狐 提 供 支撑 ;@ 
劳 红 复杂 性 。 与 大 数据 相 比 ,小 数据 更 注重 对 个 体 全 
衣 了 所 不 癌 断 ,多 维度 ,深层 次 采集 及 情 芭 因素 的 关 
联 , 数 据 来 源 更 为 广泛 ,数据 类 型 更 为 多 样 ,因此 在 进 
行 永 数 据 处 理 时 需 融 合 多 元 数据 处 理 方法 ;@ 关 注 因 
愤 美 系 。 大 数据 着 眼 于 数据 之 间 表 层 相关 性 描述 ,不 


供 了 参考 借鉴 ,但 社交 类 学 术 App 尚 属 新 生 事物 ,相关 
研究 成 果 十 分 匮乏 ,以 往 研 究 主要 通过 理论 性 探讨 或 
问卷 调查 法 对 其 技术 开发 方法 "" .用 户 使 用 所 或 采纳 
的 影响 因素 "进行 探讨 ,缺乏 数据 驱动 下 以 用 户 画 像 
的 方式 细 分 用 户 群 体 、 把 握 用 户 需 求 演 化 的 探索 尝试 
传统 的 用 户 画 像 刻画 时 仅 采集 某 一 时 间 节 点 上 的 
数据 , 即 根据 用 户 的 行为 特征 .生活 习惯 等 数据 标签 ， 
抽象 出 一 个 能 静态 展示 用 户 现 实 及 历史 全 貌 的 模 
型 "” 。 社 交 类 学 术 App 用 户 动态 画像 指 在 刻画 用 户 
概念 全 貌 的 基础 上 引入 时 间 片 段 , 选 用 科学 的 方法 , 动 
态 ,持续 地 勾勒 用 户 与 平台 交互 过 程 中 行为 轨迹 的 发 
展 趋势 。 从 这 个 意义 上 看 ,静态 画像 可 看 作 动 态 画像 
在 某 一 时 间 节 点 上 的 定格 描述 。 目 前 已 有 部 分 学 者 对 
动态 画像 的 构想 进行 积极 尝试 : 刘 勇 等 根据 用 户 历史 
交互 数据 预测 其 兴趣 变化 趋势 并 进行 动态 化 推荐 ， 
但 忽视 了 用 户 的 主观 易 变 性 ,基于 历史 数据 的 推荐 不 
一 定 能 满足 用 户 现在 或 未 来 的 需求; 王 益 成 等 认为 可 
通过 采集 用 户 行为 大 数据 构建 行为 标签 库 ,然后 根据 
用 户 反 馈 不 断 修正 画像 模型 , 仍 只 关注 了 表层 行 
为 ,未 考虑 行为 背后 的 深层 动机 ,画像 粒度 较 粗 。 张 慧 
敏 探讨 了 生活 方式 转型 背景 下 动态 用 户 画 像 的 必要 性 
及 构成 维度 ,但 侧重 于 分 析 构 建 动态 画像 对 交互 设计 
师 的 要 求 "1 , 同时 未 考虑 画像 随时 间 变 化 的 演化 规 
律 。 由 此 可 知 , 现 有 的 用 户 动 态 画像 方法 存在 画像 粒 
度 粗糙 .时 效 性 差 的 浆 端 ,针对 社交 类 学 术 App 特点 的 


探 党 影响 数据 相关 性 的 深层 原因 ,而 小 数据 不 仅 关注 
数据 相关 性 表现 ， 也 注重 揭示 数据 相关 关系 的 驱动 因 
ET 此外， 小 数据 同样 具有 大 数据 的 价值 性 动态 性 、 
快速 性 等 特征 ,可 视 为 大 数据 的 补充 和 延伸 ,因此 可 充 
分 借鉴 大 数据 相关 技术 进行 小 数据 处 理 与 利用 。 
1.2 社交 类 学 术 App 用 户 动态 画像 

作为 兼顾 学 术 性 与 社交 性 的 一 体 化 平台 ,社交 类 
学 术 App 是 指 安装 在 移动 智能 终端 上 为 用 户 提供 学 术 
资源 或 交流 平台 的 应 用 程序 。 当 前 ,由 于 移动 智能 
终端 的 普及 和 App 的 广泛 使 用 ,对 App 用 户 进行 画像 
描摹 引起 了 多 领域 学 者 的 关注 。 例 如 纪 庆 楠 通过 建立 
用 户 画 像 与 情绪 波动 图 获取 智能 公交 App 用 户 需求 痛 
点 ; 李 大 伟 等 根据 用 户 画 像 与 协同 过 滤 算 法 设计 了 
图 书 推荐 App 个 性 化 推荐 模式 ; 韩 张 俊 杰 以 资讯 类 
App 为 切入 点 构建 用 户 画像 ,利用 聚 类 算法 与 关联 规 
则 划分 用 户 群 体 并 挖掘 群体 特征 , 旨 在 优化 精准 服务 
模式 “|  。 上 述 研究 为 学 者 及 运营 人 员 以 用 户 画 像 的 
方式 定位 群体 需求 .实现 个 性 化 推荐 . 践 行 精准 营销 提 


j 户 动态 画像 研究 十 分 匮乏 。 
1.3 基于 小 数据 的 社交 类 学 术 App 用 户 动态 画像 的 
提出 

社交 类 学 术 App 用 户 多 为 受 教育 程度 较 高 有 专 
业 研 究 领域 的 科研 人 员 , 与 一 般 App 相 比 需求 特征 更 
为 明显 , 且 依 托 于 移动 终端 的 便捷 性 ,有 助 于 满足 用 户 
即时 性 情景 性 的 学 术 及 社交 需求 。 因 此 设计 画像 标 
签 体系 时 应 全 方位 、 多 维度 、 深 层次 挖 气 用 户 行为 特征 
及 深层 驱动 因素 ,同时 考虑 用 户 在 特定 情境 下 的 状态 
及 需求 。 此 外 ,动态 画像 要 求 数据 具有 延续 性 ,能 够 持 
续 稳 定 地 揭露 用 户 的 特征 趋势 。 根 据 小 数据 概念 可 
知 ,社交 类 学 术 App 用 户 小 数据 是 指 围绕 用 户 使 用 平 
台 全 过 程 展开 的 各 类 数据 集合 ,能够 真实 全面 表征 用 
户 行为 动机 使 用 情景 等 细 粒 度 特征 ,并 且 通 过 对 个 
体 用 户 行为 特征 长 时 间 的 监测 获得 ,可 以 满足 构建 动 
态 画像 的 数据 延续 性 要 求 。 

与 基于 大 数据 构建 用 户 动态 画像 相 比 ,基于 小 数 
据 的 社交 类 学 术 App 用 户 动态 画像 具有 以 下 典型 特 
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征 :中 精准 性 。 大 数据 主要 来 源 于 大 量 用 户 的 行为 活 
动 ,描绘 的 画像 聚焦 于 大 量 用 户 同 一 类 型 的 特征 ,小 数 
据 来 源 于 个 体 用 户 的 各 类 活动 ,关注 的 是 单一 用 户 的 
多 维特 征 ,基于 小 数据 的 画像 模型 更 能 精准 展示 用 户 
概念 全 貌 ; 书 深层 次 。 常 见 的 大 数据 画像 多 通过 采集 
用 户 基 本 属性 及 行为 数据 构建 而 成 ,适用 于 从 行为 层 
面 对 用 户 群 体 进行 初步 划分 的 研究 场景 ,而 小 数据 画 
像 还 强调 突出 行为 驱动 因素 ,更 利于 用 户 动态 化 行为 
规律 的 次 度 挖掘 与 个 性 化 运营 策略 的 及 时 制定 ;@) 实 
用 性 。 大 数据 的 数据 体 量 庞大 ,价值 密度 低 , 其 中 包含 
大 量 会 干扰 画像 精度 的 无 效 数 据 ,导致 基于 大 数据 的 
动态 画像 效率 低下 。 而 小 数据 围绕 针对 性 强 的 个 体 用 
户 展开 ,数据 体 量 适中 ,并 且 小 数据 采集 过 程 在 相对 封 
闭 的 环境 中 进行 ,更 易 与 用 户 建 立 良好 的 沟通 机 人 制 , 减 


少 瑚 户 隐私 浊 圳 的 顾虑 ,获取 到 高 价值 数据 。 因 此 , 基 
数据 的 动态 画像 模型 实用 价值 更 高 。 

DD 综 上 所 述 ,基于 小 数据 的 动态 画像 完全 回合 社交 
类 邓 术 App 平台 高 效 追 踪 用 户 特征 趋势 .及 时 制定 精 
准 营销 策略 的 战略 目标 。 因 此 ,本 文 从 小 数据 视角 入 
我 探究 社交 类 学 术 App 用 户 动态 画像 模型 构建 的 思 
路 记 法 。 首 先 明 确 基于 小 数据 的 社交 类 学 术 App 用 户 
OO 
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小 数 


动态 画像 构建 总 体 流程 ,然后 以 勒 温 场 动力 理论 为 依 
据 确定 动态 画像 的 构建 维度 ,并 据 此 提出 相关 小 数据 
的 采集 及 处理 方法 。 接 下 来 探究 勾勒 动态 画像 的 适用 
方法 ,最 后 形成 基于 小 数据 的 社交 类 学 术 App 用 户 动 
态 画 像框 架 模 型 ,为 数据 驱动 情境 下 社交 类 学 术 App 
平台 精准 运营 提供 新 的 研究 视角 和 思路 参考 。 


2 基于 小 数据 的 社交 类 学 术 App 用 户 动 
态 画 像 总 体 设 计 


典型 的 用 户 画 像 构建 方法 有 A. Cooper 的 “七 步 
人 物 角 色 法 "和 工 . Nielsen 的 “十 步 人 物 角色 法 ”, 这 两 
个 方法 在 流程 上 可 概括 为 获取 标签 数据 、 细 分 用 户 群 
体 、 建 立 并 丰富 用 户 画 像 三 个 环节 。 根 据 社交 类 学 
术 App 用 户 动态 画像 的 概念 可 知 ,构建 时 需 在 传统 画 
像 基 础 上 引入 时 间 片 段 ,根据 相 邻 时 间 段 簇 族 的 迁移 
关系 发 现 用 户 行 为 的 动态 轨迹 。 此 外 ,本 文 提出 的 基 
于 小 数据 的 动态 画像 模型 更 加 强调 标签 体系 的 针对 性 
和 立体 化 。 因 此 ,基于 小 数据 的 社交 类 学 术 App 用 户 
动态 画像 模型 流程 应 分 为 4 个 环节 ,如 图 1 所 示 : 


~ 

= 人 | 

>< 特 交 闫 学术 AM) 针对 性 “| “用 记 动 丰 画 铅 | 届 所 采购 ”画像 小 妆 据 区 娄 分 后 。 pj 人 
二 特点 标签 体系 


1 基于 小 数据 的 社交 类 学 术 App 用 户 动 态 画像 构建 流程 


Stepl :从 小 数据 视角 出 发 ,结合 社交 类 学 术 App 
地点 设计 包含 用 户 行为 深层 驱动 因素 的 立体 化 维度 标 


Step2 :根据 维度 标签 采集 用 户 小 数据 并 进行 预 处 
理 ; 
Step3 :根据 用 户 小 数据 中 的 时 间 信 息 划分 数据 ， 
利用 聚 类 算法 对 特定 时 间 片 段 内 的 数据 聚 类 ,将 用 户 
划分 为 不 同 群体 ,构建 出 分 时 画像 ,并 将 其 储存 在 数据 
库 中 ; 

Step4 :根据 分 时 画像 ,确定 各 个 时 段 内 的 类 簇 中 
心 (类 得 中 心 可 视 为 该 群体 用 户 的 典型 代表 )。 控 掘 
并 分 析 相 邻 时 段 内 类 簇 中 心 的 动态 迁移 关系 ,追踪 用 
户 行为 变化 轨迹 ,实现 用 户 动态 画像 的 描摹。 


上 述 设计 流程 既 参 考 了 传统 用 户 画 像 的 基本 环 
节 , 又 融合 了 本 文 提 出 的 基于 小 数据 的 动态 画像 的 特 
殊 性 及 要 求 , 实 用 价值 与 创新 作用 得 以 保证 。 


3 社交 类 学 术 App 用 户 动态 画像 标签 体 
系 与 小 数据 获取 


3.1 标签 维度 确定 的 理论 依据 

用 户 的 心理 活动 是 支撑 行为 产生 的 内 在 因素 , 任 
何 行为 发 生前 都 会 受到 一 定 的 意图 驱使 ,社会 心理 
学 家 勒 温 提 出 了 场 动 力 理论 ,用 于 分 析 支 撑 个 体 行为 
产生 的 驱动 力 和 行为 变化 过 程 。 场 动力 理论 包括 场 论 
和 动力 论 ,其 中 , 场 论 将 “ 场 " 定 义 为 个 体 与 环境 相互 
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依存 的 整体 形态 ,也 称 为 个 体 生 活 空间 (LS)。 个体 的 
心理 及 行为 总 是 在 这 个 空间 内 发 生 并 移动 ,用 函数 公 
式 可 表示 为 : 


B=f(PxE)=f(LS) 公式 (1) 

B 代表 外 化 的 行为 表现 ,P 代表 个 体内 在 需求 ,E 
代表 心理 环境 , 即 对 个 体内 在 需求 产生 刺激 作用 的 情 
景 ,ft 为 个 体 与 环境 相互 作用 的 函数 ” 。 因 此 , 场 论 认 
为 个 体 行为 是 主体 与 情境 交互 作用 的 结果 。 动 力 论 提 
出 个 体 心理 或 行为 的 动力 源 于 个 体 与 情景 交互 过 程 中 
产生 的 紧张 感 。 即 当 个 体 需求 未 得 到 满足 时 ,其 心理 
便 会 处 于 紧张 状态 ,驱动 行为 产生 以 缓解 或 消除 心理 
张力 。 此 外 ,个 体 的 心理 目标 也 是 驱动 行为 产生 的 重 
要 因素 。 根 据 场 动力 理论 可 知 , 社 交 类 学 术 App 用 户 
行为 会 受到 内 在 需求 和 外 在 情境 的 双重 驱动 。 具 体 来 
说 < 者 户 对 社交 类 学 术 App 往往 有 一 个 直观 基础 的 内 
在 需求 ,例如 满足 查找 文献 的 需要 、 进 行 科研 合作 的 需 
要 缴 。 用 户 所 处 情景 或 与 其 他 用 户 的 交互 情景 也 会 催 


便 会 产生 心理 张力 ,从 而 进行 一 系列 行为 活动 企图 消 
附加 理 紧 张 感 ,如 在 平台 查阅 下载 所 需 知识 或 提问 、 
等 表达 个 人 诉求 与 兴趣 偏好 。 因 此 ,社交 类 学 术 
A 名 用 户 行为 .内 在 需求 与 外 在 情境 之 间 呈 现 出 动态 
交 壮 关系 ,为 本 文 深入 分 析 用 户 行为 驱动 过 程 并 确定 
动态 画像 维度 提供 了 理论 依据 。 

标签 体系 的 构成 及 小 数据 采集 

己 根据 场 动力 理论 与 社交 类 学 术 App 特征 ,本 文 认 
为 驱动 社交 类 学 术 App 用 户 行为 的 因素 包括 用 户 的 价 
值 吏 向 , 认 知 能 力 \ 情 景 特征 和 社交 关系 。 结 合用 户 自 
然 属性 与 行为 偏好 两 个 画像 基本 因素 ,构建 出 包括 6 
个 维度 的 画像 体系 ,如 图 2 所 示 。 各 维度 内 在 关系 为 : 
用 户 的 自然 属性 与 行为 偏好 是 勾勒 画像 的 基础 框架 ， 
价值 取向 . 认 知 能 力 ,情景 特征 和 社交 关系 驱动 了 行为 
的 产生 ,其 中 价值 取向 和 认 知 能 力 属于 用 户 自身 驱动 ， 
即 内 驱 力 P, 情 景 和 社交 为 外 界 情境 的 刺激 因素 , 即 诱 
因 EE。 行为 偏好 是 自然 属性 ,价值 取 向 、 认 知 能 力 、 情 
景 特征 ,社交 关系 综合 作用 的 外 化 体现 。 

(1) 自然 属性 。 具 有 持久 稳定 特征 的 自然 属性 是 
催生 用 户 行为 变化 的 基础 “。 其 中 ,性 别 与 年 龄 是 群 
体 行为 .偏好 及 需求 趋向 的 影响 因素 ;社交 类 学 术 App 
以 知识 的 提供 和 交流 为 目的 ,用 户 可 根据 自身 兴趣 需 
求 获取 相应 内 容 及 服务 ,因此 也 应 考虑 用 户 的 教育 程 
度 和 专业 领域 。 

(2) 行 为 偏好 。 用 户 行为 偏好 指 用 户 对 某 一 事物 


1 1 
价值 取向 | | | 
!| ”用户 个 体内 驱 力 P) | | | 

马 求 1 1 
1 容 需 求 1 1 | 
| p 1 1 1 
| 认 知 能 力 | | | | 
全 协 | 人 自 
仿 > 网 一 一] 月 一 和 | 
tel 情 最 特征 | | 1 好 性 
1 ”外 在 情 坟 ”| (诱因 思 | | 
!| 驱动 因素 | | | 
| 社交 关系 | | ! ' 
| 深层 驱动 | ! 基本 框架 | 
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图 2 社交 类 学 术 App 用 户 动态 画像 维度 体系 


的 倾向 及 关注 程度 ,是 需求 的 外 化 体现 。 把 握 用 户 
行为 偏好 需 从 直观 需求 和 兴趣 倾向 两 方面 考虑 。 用 户 
往往 通过 搜索 .浏览 点击. 下 载 获取 所 需 知识 ,或 由 发 
帖 意 见 反 馈 直观 表达 自身 的 知识 诉求 ,而 关注 感 兴趣 
的 用 户 ,收藏 价值 内 容 则 是 兴趣 倾向 的 体现 。 

(3) 价值 取向 。 自 我 差异 论 认为 ,理想 自我 是 期 
望 中 个 体 所 应 具备 的 能 力 特 征 , 代 表 了 对 自身 未 来 状 
态 的 愿景 ,现实 自我 指 当 下 个 体 具 备 的 能 力 特征 ,二 者 
之 间 的 差距 驱使 用 户 产生 能 够 不 断 弥 合 差距 的 行 
为 55 。 科 研 用 户 使 用 社交 类 学 术 App 旨 在 通过 解决 
科研 问题 或 科研 互助 等 提高 自身 能 力 ,不 断 接近 期 待 
的 自我 。 因 此 ,价值 取向 是 用 户 行为 产生 的 动力 源泉 ， 
可 从 用 户 愿景 与 自我 评估 两 方面 考察 。 

(4) 认 知 能 力 。 认 知 能 力 指 用 户 对 信息 内 容 进行 
识别 .加 工 并 有 效 运用 的 能 力 , 认 知 能 力 的 不 同 驱使 用 
户 产 生 差异 化 行为 ”i。 认 知 能 力 一 方面 与 用 户 素质 
和 文化 水 平 相关 , 另 一 方面 与 平台 交互 程度 相关 。 用 
户 认 知 能 力 在 与 平台 的 交互 过 程 中 逐步 提高 ,对 平台 
的 价值 贡献 越 来 越 大 。 因 此 ,可 从 用 户 自身 情况 和 平 
台 贡 献 价 值 两 方面 考虑 其 认 知 能 力 。 其 中 ,等 级 、 认 证 
身份 是 用 户 自身 水 平 的 体现 ,被 关注 数 、 被 收藏 数 、 被 
点 赞 数 则 是 对 平台 贡献 价值 的 反映 。 

(5) 情 景 特征 。 不 同情 景 下 用 户 需求 的 变化 会 导 
臻 行为 偏好 发 生 改变 倾向 。 人 情景 是 动态 的 .连续 
的 ,情景 片段 的 链接 形成 了 科研 用 户 的 生活 轨迹 , 因 
此 ,分 析 情 景 因素 是 构建 发 展 性 用 户 动态 画像 、 及 时 响 
应 用 户 需 求 的 必然 要 求 。 根 据 情景 分 类 ”及 研究 对 
象 特征 ,本文 认 为 可 从 时 间 人 情景 .位 置 情景 ,用户 情 景 
以 及 设备 情景 四 方面 感知 情景 特征 。 

(6) 社 交 关 系 。 社 交 类 学 术 App 在 满足 用 户 知 识 
需求 的 同时 还 兼 具 社交 功能 ,鼓励 用 户 积极 参与 知识 
交流 .共享 与 创新 “1。 平台 上 的 用 户 在 与 他 人 关注 、 
讨论 .分享 过 程 中 可 进一步 挖掘 自身 潜在 需求 与 兴 
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进而 影响 使 用 App 的 行为 模式 。 因 此 社交 关系 可 视 为 
驱动 用 户 行为 模式 的 群体 网 络 情境 ,用 户 加 入 的 群 组 、 
关注 的 人 数 与 互动 数据 是 动态 性 深入 追踪 用 户 行为 轨 
迹 的 重要 标签 。 

用 户 的 基本 信息 、 社 交 关 系数 据 存储 于 App 管理 
后 台 ; 行 为 偏好 可 从 存储 于 用 户 日 志 上 的 行为 数据 和 
用 户 生成 内 容 中 获取 ;价值 取向 可 挖掘 用 户 生成 内 容 


获得 ,也 可 通过 问卷 .访谈 等 调研 方式 得 到 ,例如 平台 
发 放 定向 电子 问卷 来 了 解 用 户 愿景 及 当下 需求 ; 认 知 
能 力 可 由 用 户 提交 的 认证 资料 及 交互 数据 分 析 获 得 ; 
对 于 情景 特征 的 感知 主要 依靠 传 感 妖 .定位 系统 和 智 
能 穿戴 设备 ;社交 关系 利用 日 志 挖 据 及 社交 网 络 分 析 
法 得 出 。 基 于 小 数据 的 社交 类 学 术 App 用 户 动态 画像 
标签 体系 及 小 数据 采集 方法 如 表 1 所 示 : 


表 1 社交 类 学 术 App 用 户 动态 画像 标签 及 小 数据 采集 


维度 标签 标签 解释 说 明 小 数据 来 源 与 采集 方法 
自然 属性 户 性 别 人 口 统计 学 特征 ,分 为 " 男 ”“ 女 ” 户 注册 时 所 提交 的 个 人 信息 ;可 在 App 数据 管理 后 台 上 直 


户 年 龄 。 ”人 口 统计 学 特征 ,可 按 年 龄 段 划分 


获取 


户 在 平台 上 留 下 的 使 用 痕迹 和 生成 的 文本 内 容 ,保存 在 平台 
上 的 用 户 日 志 中 ;利用 网 络 息 虫 ,日 志 挖 所 技术 或 埋 点 技术 动 
态 追 踪 用 户 行为 ,通过 数据 挖 所 方法 识别 用 户 兴趣 偏好 


户 生 成 内 容 、 问 卷 或 访谈 ;文本 挖 气 或 调研 


和 户 注册 时 认证 的 个 人 信息 及 交互 过 程 中 产生 的 数据 :可 在 
App 数据 管理 后 台 上 直接 获取 


情景 平台 监管 系统 自动 感知 并 记录 ;由 传感器 .定位 系统 .智能 穿戴 


垂 前 设备 等 获取 用 户 使 用 的 时 空 物 理 特征 和 心理 状态 


户 在 平台 上 的 行为 痕迹 ;通过 日 志 挖 气 、 社 交 网 络 分 析 获 得 
户 社交 网 络 结构 


教育 程度 。 ”用 户 注 册 时 所 填 的 教育 及 学 历 水 平 … 
专业 领域 。 用 户 注册 时 所 填 的 研究 或 工作 领域 
行为 偏好 ” ”搜索 行为 。 用 户 在 App 上 搜索 内 容 或 学 者 的 行为 
T™ 浏览 行为 有 户 在 App 上 浏览 相关 资源 或 社 群 交流 内 容 等 
局 点 击 行为 ”用 户 点 击 链接 或 图 片 视频 等 内 容 以 进行 详细 
< 下 载 行为 。 ”用 户 将 需求 资源 下 载 下 来 以 便 保存 的 行为 
ae 反馈 行为 户 将 需求 .意见 建议 等 反馈 给 其 他 用 户 或 
©O 关注 话题 。 用 户 自主 在 平台 上 关注 的 感 兴趣 的 话题 
OO 收藏 内 容 。 ”用户 自主 在 平台 上 收藏 的 感 兴趣 或 有 价值 的 
< 直 发 帖 内 容 。。 用 户 在 平台 上 的 提问 发 帖 或 回复 他 人 的 帖子 
Rn 户 愿 景 和 户 期 待 使 用 App 能 够 达到 的 理想 自我 的 水 平 
[a 自我 评估 用 户 对 现实 自我 水 平 及 状态 的 评估 
GR 户 等 级 。 ”用 户 在 平台 上 的 等 级 ,与 平台 交互 越 深入 等 级 越 高 
A 认证 身份 。 ”由 用 户 个 人 提交 并 经 平台 认证 的 身份 信息 
> 被 关注 数 户 被 他 人 关注 的 数量 ,是 用 户 对 平台 价值 所 
S< 被 收藏 数 。 ”发 表 内 容 被 他 人 收藏 的 数量 ,是 用 户 对 平台 价值 的 体现 
© 被 点 先 数 。 ”用户 发 表 内 容 被 他 人 点 赞 的 数量 ,是 用 户 对 平台 价值 的 体现 
伍 时 特征 户 情景 有 户 心理 状态 ,可 分 为 任务 情景 休闲 情景 . 划 
CS 时 间 情 景 ” ”用户 使 用 App 时 段 ,可 分 为 晨 起 .上 午 .中午 下午、 
OO 位 置 情景 ”用 户 使 用 App 时 所 处 的 空间 地 理 位 置 
设备 情景 ”” 主 要 包括 硬件 信息 (屏幕 大 小 ) 和 网 络 信息 (网 络 状态 ) 
社交 关系 。 ” 群 组 数量 。 ”用 户 加 入 或 参与 的 相关 讨论 群 组 数量 
关注 人 数 。 ”用 户 自主 关注 的 平台 上 其 他 用 户 的 数量 
互动 数据 。 ”用户 间 的 讨论 ,分享 .合作 等 交互 数据 


3.3 小 数据 处 理 

以 往 用 户 画像 应 用 的 数据 多 为 基本 属性 数据 与 行 
为 数据 ,可 通过 编码 方式 进行 数值 转化 或 简单 处 理 后 
直接 用 于 实验 分 析 ” ,但 本 文 构建 的 画像 在 上 述 基础 
上 还 需 融 合 评论 或 发 帖 文本 ( 即 内 容 特征 )。 文 献 
[30] 提 出 了 一 种 基于 行为 - 内容 融合 模型 的 画像 方 


出 ,用户 发 表 回复 帖子 或 关注 的 主题 往往 与 自身 特定 
领域 相关 ,这 种 特点 使 从 文本 内 容 中 挖 据 分 析出 用 户 
的 兴趣 领域 成 为 可 能 。 因 此 ,本 文 提 出 了 一 种 基于 
LDA 主题 模型 的 文本 数据 建 模 方法 , 见 图 3。 

Stepl :采集 文本 内 容 , 按 用 户 ID 逐条 拼接 并 存储 
为 文本 文档 ,清洗 后 导入 领域 词 表 进行 中 文 分 词 、 停 用 


法 ,首先 将 用 户 发 表 文本 进行 拼接 ,然后 进行 深度 用 户 
表示 学 习 , 再 通过 有 聚 类 获得 类 别 标签 ,将 其 作为 一 个 特 


词 过 滤 , 将 原始 文本 切割 成 以 特征 词 为 单元 的 序列 ,再 
利用 TF-IDF 从 词 频 和 重要 性 两 个 角度 计算 特征 词 权 


征 加 入 行为 特征 中 共同 作用 于 画像 的 勾勒 。 这 种 方法 
为 多 源 数据 处 理 提 供 了 一 定 的 参考 ,但 未 考虑 文本 内 
容 的 主题 特征 。 社 交 类 学 术 App 的 专业 性 、 领 域 性 突 


重 ,保留 重要 特征 词 ; 
Step2: 利 用 LDA ( Latent Dirichlet Allocation , 隐 含 
狄 利克 雷 函 数 ) 主题 模型 中 简单 易 用 的 Gibbs 采 相 


> 
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(5):50 -5S9. 
a — = 用 包括 但 不 限于 KNN(k-Nearest Neighbor) 机 器 学 习 中 
se 的 分 类 算法 进行 文档 标签 的 匹配 。 
re Step4 :获得 各 文档 领域 标签 后 ,对 其 进行 数字 化 
赋值 ,例如 将 “内 科 ”“ 外 科 ” 中 医 ”三 个 标签 分 别 赋值 
Gibhs 采样 11,2,31 ,最 终 实现 从 用 户 生成 内 容 中 识别 用 户 兴趣 领 
i 域 并 将 其 转化 为 数值 的 目的 。 
上 述 方法 既 可 对 文本 数据 进行 量化 ,又 能 从 主题 
人 工 识别 机 器 学 习 层面 对 文本 特征 进行 概括 揭示 ,兼顾 了 实用 性 与 科学 
文档 -主题 = 将 全 局 性 ,实现 了 将 文本 数据 与 其 他 数据 共同 作用 于 画像 描 
绘 的 研究 目标 ,能 够 最 大 限度 避免 画像 失真 。 
领域 标签 区 数字 化 赋值 


标签 赋值 


图 3 基于 LDA 主题 模型 的 非 结构 化 文本 建 模 步骤 


据 交 本 隐 含 的 主题 , 即 根据 统计 学 思想 将 复杂 的 文本 
援 吏 到 潜在 的 主题 空间 ,得 到 “文档 - 主题 ”分布 09 和 
“ 匡 硕 -特征 词 " 的 分 布 p "如 图 4 所 示 。 主 题 个 数 
可 防 据 困惑 度 评价 法 确定 ™: 
© lon POD] 
> N, 

CD 公式 (2) 

(w) =p(z | d) *p(w | z) 公式 (3) 
CU 其 中 ,M 为 文本 数 ,D 为 测试 集 文档 ,Nd 为 文档 d 
中 出 现 的 所 有 词 总 数 ,p(w) 为 测试 集中 每 个 词 出 现 的 
村。p (zl1d) 为 文档 中 各 个 主题 出 现 的 概率 ,p (wlz) 
表 感 某 主 题 下 每 个 特征 词 出 现 的 概率 5 。 困 惑 度 随 
主题 数 K 值 的 增加 而 下 降 , 下 降 趋势 趋 于 平缓 时 的 
值 贸 最 佳 个 数 。 然 后 根据 相关 性 对 主题 下 的 词 排序 ， 
取 前 N 个 作为 特征 词 ,形成 N 个 “主题 - 特征 词 ” 
矩阵 。 


< 站 perplexity ( D) =exp | 


文档 主题 
文档 
词 - 词 
语 : 语 题 


4 “文档 -主题 -特征 词 "矩阵 


Step3 :得 到 “文档 - 主题 - 特征 词 " 和 矩阵 后 ,车 样 
本 较 少 ,可 人 工 识别 各 主题 词 复 ,识别 时 应 综合 考虑 主 
题 下 词语 的 分 布 情况 和 语义 关系 。 由 于 社交 类 学 术 
App 多 为 行业 垂直 类 平台 ,例如 面向 医疗 领域 的 丁香 
App 和 面向 经 管 领域 的 经 管 之 家 App ,因此 在 识别 
主题 特征 词 时 可 咨询 相关 领域 专家 ,为 各 文档 设置 一 
个 能 够 概括 其 特征 的 领域 标签 。 若 样本 较 多 ,可 以 采 


4 ”关键 技术 介绍 与 框架 模型 的 形成 


4.1 动态 画像 构建 的 关键 技术 

运用 聚 类 算法 将 大 规模 用 户 划分 为 几 个 典型 群 
体 ,可 在 数据 驱动 环境 下 高 效 把握 用 户 核 心 特征 及 需 
求  。 这 一 思想 已 得 到 广泛 应 用 :如 陈 漆 源 采用 k- 
means 聚 类 描绘 移动 图 书馆 差异 化 用 户 群 体 ” ; 陈 娟 
等 采用 层次 聚 类 识别 出 知 乎 平台 三 类 典型 群体 ”。 
社交 类 学 术 App 用 户 量 较 大 ,适合 通过 聚 类 方法 挖掘 
群体 画像 特征 ,但 不 同 于 以 往 面向 静态 数据 的 聚 类 ,本 
文 提 出 的 动态 画像 引入 了 时 间 片 段 ,通过 识别 相 邻 时 
间 段 复 族 的 迁移 关系 来 实现 用 户 动 态 轨迹 的 描摹 。 目 
前 鲜 有 研究 对 基于 时 间 序 列 数 据 的 动态 画像 方法 进行 
探讨 ,但 学 者 广泛 认同 对 时 间 序 列 数据 聚 类 需 考 虑 两 
个 核心 问题 :中 特定 时 段 内 的 聚 类 结果 应 充分 反映 出 
该 时 段 内 数据 的 特征 ;@ 不 同时 段 的 聚 类 结果 在 时 间 
轴 上 呈现 出 一 定 的 连续 性 , 即 相 邻 时 段 的 复 族 是 平滑 
演化 的 。D. Chakrabarti 等 于 2006 年 首次 提出 演化 
聚 类 思想 ,并 将 其 应 用 到 人 -means 算法 上 得 到 演化 K- 
means 聚 类 ,用 以 解决 时 间 序 列 数据 聚 类 准确 性 与 连 
续 性 问题 ,在 此 基础 上 , 王 富 鹏 考虑 了 历史 数据 对 
当前 时 刻 聚 类 结果 的 影响 ,并 将 其 应 用 于 金融 股票 行 
情 轨 迹 的 趋势 分 析 , 帮助 股民 实时 了 解 股市 变化 。 
由 于 本 文 的 研究 目标 .数据 结构 与 上 述 研究 相似 ,因此 
本 文 认 为 可 充分 借鉴 演化 聚 类 思想 动态 挖掘 社交 类 学 
术 App 用 户 演化 行为 ,步骤 如 下 : 

Stepl :划分 合理 的 时 间 窗 口 。 将 采集 的 数据 按照 
一 定 的 时 间 段 t 分 割 成 多 组 数据 ,或 按照 时 间 段 多 次 
采集 数据 ,获得 不 同时 间 段 下 的 多 组 数据 。 对 于 t 值 
可 根据 App 产品 开发 或 迭代 的 周期 确定 ,也 可 参考 损 
失 函 数 确定 , 即 :Cost =a * CS+(1-a). CT。 其 
中 ,CS 为 快照 损失 (cost of snapshot ) , 值 越 大 表明 当前 
时 段 内 聚 类 效果 越 差 ;CT 为 时 间 损 失 ( cost of temporal- 
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ity) ,时 间 损 失 越 大 证 明 相 邻 时 段 的 平滑 性 越 差 。a 为 
用 户 对 上 述 两 个 值 的 权衡 系数 ,a 越 大 说 明 用 户 越 重 
视 片 段 内 聚 类 质量 ,a 越 小 则 相反 。 

Step2 :构造 用 户 分 时 画像 。 这 一 过 程 借鉴 文献 
提出 的 演化 K-means 算法 实现 , 即 在 传统 k-means 算法 
聚 类 中 心 点 选择 的 基础 上 融入 对 历史 时 间 片 段 内 聚 类 
中 心 权 重 的 考虑 ,公式 为 : 

Ca X E, aorent)) ) |(xz)+(1-a)xy> (CALL 
-i) C' ) 公式 (4) 

其 中 ,CG; 代表 时 段 + 内 的 第 j 个 聚 类 中 心 点 下 为 
期 望 运 算 ,closest(]) 表 示 距 离 中 心 点 j 最 近 的 样本 点 ,f 
(t,t 一 i) 指 ti 时 段 罕 类 中 心 的 权重 。a 仍 为 快照 损 
失 与 时 间 损 失 的 权衡 系数 。 此 外 ,选择 初始 中 心 点 时 
推 无 历史 数据 可 以 参考 ， 且 K-means 算法 存在 需 人 为 
指 宕 处 族 个 数 与 随机 选择 初始 中 心 点 的 次 端 ,因此 可 
将 Ganopy 算法 作为 k-means 肾 类 之 前 的 先 验 簇 族 依 
护 加 ,同时 确定 Silhouette 系数 高 且 各 组 样本 分 布 合 理 
办 中 心 点 ,再 完成 对 时 间 序 列 数 据 的 分 


seers :识别 这 化 吉 赤 这 一 环节 需 分 析 相 邻 时 段 
导 
短促 概率 得 得 到 篮 族 权重 的 方法 实现 ,具体 方法 为 :已 知 
随从 相 邻 时 刻 上 和 上 的 聚 关 结 果 分 别 是 Qi 和 Q 


Qi 中 的 簇 族 C, (4) 与 Qi 中 的 禾 族 CC ) 的 权重 计 
算 公式 ”为 : 
Weight(C,(t,),C,(t,))=P(XEeC,(t.,)| Xe 
P(xeC,(t) NGC,(t, 
> ee 公式 (5) 
其 中 ,P(XEC,(i,) | XeC,(i) 表 示 样 本 点 在 
属于 C(t) 条件 下 属于 C(ti,,) 的 概率 ,P(x eC,(t;) 
NC,(tiw) ) 样 本 点 属于 C, (1) 站 C(t ) 的 概率 ,P(x 
e C(ti) 表示 样 本 点 属于 C, (4) 的 概率 。 由 于 时 段 内 
数据 的 不 平衡 性 , 簇 族 一 般 会 有 7 种 演化 状态 ,如 图 5 
所 示 , 分 别 为 :出 现 一 个 新 的 群体 ;一 个 群体 分 裂 为 两 
个 或 两 个 以 上 群体 ;两 个 或 两 个 以 上 群体 合并 为 一 个 
群体 ;一 个 群体 在 下 一 阶段 消失 ; 某 群 体内 的 用 户 数 量 
在 下 一 阶段 增加 ; 某 群体 内 的 用 户 数 量 在 下 一 阶段 减 
少 ; 某 群体 在 相 邻 阶段 未 发 生 任何 变化 。 在 识别 演化 
行为 之 前 需要 事先 设 定 簇 族 演 化 的 临界 值 , M OLIVEI- 
RA 等 人 提出 的 MEC 框架 (Monitor of the Evolution of 
Clusters over time ) 中 通过 定义 survival 的 参数 + 和 split 
的 参数 来 识别 各 个 演化 行为 ” , 王 富 鹏 在 此 基础 上 
引入 参数 作为 grow 和 decline 行为 的 临界 值 以 识别 
上 述 7 种 演化 行为 。 三 个 参数 的 冰 值 均 为 [0,1] ,具体 
取 值 应 根据 实际 应 用 场景 ,通过 反复 迭代 实验 确 


Oz [37] 
o 


C(t;) = 


图 5 簇 族 演化 示意 


社交 类 学 术 App 用 户 的 行为 习惯 往往 具有 延续 
性 ,演化 聚 类 考虑 了 历史 数据 对 当前 聚 类 的 影响 作用 ， 
利用 演化 聚 类 构建 动态 画像 更 由 合 社交 类 学 术 App 用 
户 实际 状态 ,上 且 融 入 了 Canopy 算法 的 演化 K-means 
算法 鲁 棒 性 更 强 ' 中 。 此 外 , 随 着 用 户 与 平台 交互 程 
度 的 加 深 , 用 户 所 属 群 体 是 一 个 动态 变化 的 过 程 ,这 
与 复 族 演化 过 程 分 析 是 一 致 的 。 因 此 ,利用 演化 K- 
means 算法 实现 社交 类 学 术 App 动态 画像 理论 上 具 
有 极 强 的 可 行 性 , 且 相 关 应 用 研究 ”为 其 提供 了 实 
践 支撑 。 


4.2 基于 小 数据 的 社交 类 学 术 App 用 户 动态 画像 框 
架 模 型 

由 于 构建 目标 与 应 用 场景 不 同 ,画像 模型 的 层次 
结构 与 具体 构建 方法 也 有 所 差异 。Y，Kritikou 等 认为 
模型 应 包括 监控 层 、 建 模 层 、 适 应 层 三 个 层次 ; 许 鹏 
程 等 从 数据 采集 、 人 处 理 、 存 储 \ 挖 气 、 旦 现 及 应 用 6 个 层 
面 构建 数字 图 书馆 用 户 画像 框架 模型 。 借 鉴 上 述 
研究 ,本 文 认为 基于 小 数据 的 社交 类 学 术 App 动态 画 
像 实 质 是 在 标签 体系 的 基础 上 充分 采集 与 用 户 强 相关 
的 小 数据 ,通过 引入 时 间 窗 口 构建 用 户 分 时 画像 并 通 
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过 簇 族 迁 移 识 别 用 户 动态 轨迹 。 因 此 ,框架 模型 应 包 
括 小 数据 采集 处 理 层 ,分 时 画像 构建 层 .动态 画像 形成 


人 


动态 画像 的 应 


动态 画像 形成 层 


分 时 画像 构建 层 


小 数据 采集 处 理 


圳 


304.00319v1 


4 小 数据 采集 处 理 层 
GAN 数据 采集 处 理 层 根据 构建 的 标签 体系 ,综合 运 
用 加 络 候 虫 .日 志 挖 抓 等 技术 与 能 够 获取 用 户 深层 特 
征 的 调研 等 方式 获得 相关 小 数据 并 进行 预 处 理 , 转 化 
为 需 足 画像 需要 的 数据 形式 。 由 于 勾勒 画像 的 各 维度 
标签 与 画像 结果 的 相关 度 不 一 ,其 相关 程度 与 动态 面 
像 的 具 休 应 用 情境 有 关 。 因 此 应 根据 实际 需要 调整 标 
签 权重 ,确保 画像 结果 的 科学 决策 价值 。 
4.2.2 ”分 时 画像 构建 层 

构建 用 户 分 时 画像 是 识别 其 行为 轨迹 的 前 提 。 首 
先 按照 数据 的 时 间 信息 将 其 划分 到 特定 时 段 中 ,形成 
时 间 序列 数据 ,然后 对 不 同时 段 内 的 数据 分 别 聚 类 , 即 
将 特定 时 段 内 具有 相似 特征 的 用 户 划分 到 同一 类 簇 ， 
并 确定 各 类 艇 中 心 点 ,最 后 将 分 时 画像 结果 自动 存储 
于 数据 库 中 ,为 下 一 步 识别 用 户 动态 行为 轨迹 做 铺垫 。 
4.2.3 动态 画像 形成 层 

形成 动态 画像 需 通 过 相似 度 判断 阔 值 比 对 、 动 态 
轨迹 识别 三 部 分 完成 。 首 先 计算 相 邻 时 段 簇 族 的 权 
重 ,然后 将 所 得 权重 与 事先 设置 的 闵 值 对 比 ,判断 徐 族 
间 的 新 生 、 合 并 分裂. 消亡 等 迁移 关系 ,识别 出 用 户 动 
态 迁 移 轨迹 。 为 了 保证 画像 的 准确 性 和 实用 性 ,对 夯 
像 结果 进行 评估 , 若 能 满足 平台 决策 要 求 , 则 将 画像 结 


6 ”基于 小 数据 的 社交 类 学 术 App 用 户 动态 画像 框架 模型 


果 存 储 以 便利 用 ;车 不 能 满足 , 则 通过 反馈 调整 各 层级 
的 组 织 内 容 及 流程 结构 ,构建 出 真实 可 靠 、 适 用 性 强 的 
动态 画像 。 

上 述 三 个 层次 形成 了 一 个 闭环 过 程 , 既 符 合 画 像 
模型 的 一 般 流 程 ,又 能 实现 基于 小 数据 描 擎 社交 类 学 
术 App 用 户 动态 画像 的 研究 目标 ,并 且 画 像 评 估 模 块 
考虑 了 画像 的 实际 应 用 价值 ,科学 性 更 强 。 

4.3 基于 小 数据 的 社交 类 学 术 App 用 户 动态 画像 的 
作用 
4.3.1 预测 用 户 行为 

对 平台 现 有 用 户 进行 动态 画像 ,可 通过 观察 其 动 
态 趋势 预测 下 一 阶段 的 行为 特征 ,有 效 改善 了 传统 画 
像 方法 的 灌 后 性 整 端 ; 同 时 ,通过 特征 对 比 或 中 心 点 距 
离 计 算 将 新 用 户 定位 到 分 时 画像 数据 库 中 相似 度 最 高 
的 簇 族 ,然后 根据 轨迹 模型 预测 出 用 户 在 下 一 时 段 大 
概率 会 发 生 的 行为 ,一 定 程度 上 可 以 解决 新 用 户 的 冷 
启动 问题 。 

4.3.2 优化 精准 服务 

本 文 构建 的 社交 类 学 术 App 用 户 动 态 画 像 模型 以 
小 数据 作为 画像 数据 支撑 , 既 考 虑 了 用 户 的 表层 行为 
村 征 ,又 融合 了 深层 行为 驱动 因素 ,描摹 出 的 画像 更 贴 
合用 户 的 实际 状态 与 全 面 诉求 。 社 交 类 学 术 App 的 运 
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营 者 可 据 此 细 化 用 户 群 体 ,针对 群体 特征 推荐 适 配 性 
内 容 , 实 现 用 户 与 资源 的 精准 匹配 ,从 而 优化 平台 精准 
服务 水 平 ,提高 决策 效率 及 能 力 。 
4.3.3 调整 产品 布局 

用 户 行为 轨迹 的 识别 与 追踪 使 App 平台 实时 、 动 
态 把 握 用 户 需 求 成 为 了 可 能 。 构 建 动 态 画 像 有 助 于 为 
用 户 量 身 定制 覆盖 用 户 与 平台 交互 全 过 程 的 产品 及 服 
务 , 同 时 也 可 根据 用 户 需 求 的 演化 辅助 平台 具有 前 瞻 
性 地 调整 产品 布局 ,优化 平台 结构 ,动态 性 对 接 用 户 个 
性 化 需求 ,不 断 提 高 平台 的 市 场 竞 争 力 。 


S 结语 


作为 大 数据 的 延续 与 补充 ,小 数据 在 全 方位 .深层 
次 表征 个 体 用 户 行为 模式 及 情境 因素 方面 具有 极 强 的 
优 起 性 。 同 时 ,无 线 传感器 技术 ,智能 可 穿戴 设备 以 及 
监控、 定位 技术 的 成 熟 与 普及 为 小 数据 实时 获得 提供 
:和 扳 术 支撑 。 鉴 于 此 ,本 文 提出 基于 小 数据 描摹 社 交 
类 强 术 App 用 户 画像 的 思路 ,并 探究 了 运用 演化 聚 类 
及 铁 族 迁移 实现 动态 画像 的 可 行 性 ,构建 出 基于 小 数 
内 社 交 类 学 术 App 用 户 动态 画像 框架 模型 并 阐述 其 
行为 .优化 服务 .调整 布局 方面 的 作用 。 为 社交 
s App 平台 运营 者 精准 洞察 用 户 动态 化 需求 .及 
适 配 的 资源 服务 策略 提供 新 的 视角 和 参考 思 


由 于 目前 基于 小 数据 视角 构建 社交 类 学 术 App 用 

户 七 态 画 像 的 研究 十 分 匮乏 ,本 文 则 在 提出 一 个 全 面 、 

系 绕 的 框架 并 进行 可 行 性 分 析 , 让 富 并 拓展 小 数据 动 

态 奢 像 的 理论 研究 体系 ,为 小 数据 的 应 用 与 用 户 画 像 

的 创新 突破 提供 新 的 视角 。 限 于 篇 幅 ,无 法 在 一 篇 文 

章 中 全 面 展示 相关 实证 过 程 ,后 续 将 在 本 文 基础 上 对 

小 数据 采集 处 理 及 动态 画像 的 构建 进行 实证 分 析 , 深 

入 探讨 模型 的 应 用 价值 与 泛 化 作用 。 

参考 文献 : 

[ 1 ] 耿 斌 , 孙 建 军 . 在 线 学 术 社 交 平台 的 用 户 行为 研究 一 一 以 Re- 
searchGate 平台 南京 大 学 用 户 为 例 LJj. 图 书 与 情报 ,2017 ,61 
(5) :47 -53. 

[2 ] HOLDEN RJ, KULANTHAIVEL A, PURKAYASTHA S，et al. 


Know thy eHealth user: development of biopsychosocial personas 
from a study of older adults with heart failure [ J ]. International 
journal of medical informatics, 2017, 108(12) :158 - 167. 

[ 3] TRUSOV M, MA L, JAMAL Z. Crumbs of the cookie : user profi- 
ling in customer-base analysis and behavioral targeting [J ]. Mar- 
keting science, 2016 ,35(3 ) :405 -426. 

[ 4 ] 陈 臣 , 马 晓 亭 . 基于 小 数据 的 图 书馆 用 户 精准 画像 研究 [J. 情 


报 资料 工作 , 2018 ,40(5) :57 -61. 
[5 ] 孙 丹 起 , 王 伟 军 , 姜 六. 基于 用 户 小 数据 的 做 入 式 学 科 服务 研究 
[可 .图 书馆 工作 与 研究 ,2019(4) :84 -90. 
[6 ] 刁 羽 , 畅 佩 . 面向 小 数据 的 图 书馆 精准 创 客 服务 研究 [J]. 图 书 
馆 理论 与 实践 ,2018(5) :109 - 112. 


| 7 ] 王 欣 , 张 冬 梅 . 大 数据 环境 下 基于 高 校 读者 小 数据 的 图 书馆 个 
性 化 智能 服务 研究 [ 了 站. 情报 理论 与 实践 ,2018,41(2):132 - 
137. 


[ 8 ] ESTRIN D. Small data, where n = me [J]. Communications of the 
ACM, 2014, 57(4) :32 - 34. 

[ 9 ] 陈 臣 , 马 晓 亭 . 基于 小 数据 的 图 书馆 用 户 精 准 画像 研究 [可 . 情 
报 资料 工作 ,2018(5) :57 -61. 

[10] HSIEH C K, YANG L, WEI H, et al. Immersive recommenda- 


tion: news and event recommendations using personal digital traces 
[CJ]//Proceedings of the 25th international conference on World 
Wide Web. Montreal: ACM, 2016:51 -62. 

[11] 陈 臣 ,李强 . 基于 小 数据 决策 的 读者 兴趣 发 现 与 预测 [可 . 情报 

科学 ,2017 ,35(5) :75 - 80. 

[12 ] 李 立 寄 , 邓 仲 华 .“ 互 联网 +” 背 景 下 科研 用 户 的 小 数据 融合 研 

究 [ 中 .图书 情 报 工作 ,2016 ,60(6) :58 - 63. 

[13] 张 晓 丹 , 江 洪 , 王 可 慧 . 学 术 App 用 户 采纳 意愿 影响 因素 实证 看 

究 [J]. 图 书 情报 工作 ,2018 ,62(18) :90 -101. 

[14] 纪 庆 楠 . 基于 用 户 体验 的 智能 公交 APP 交互 设计 研究 [D]. 西 

安 :西安 理工 大 学 ,2017. 

[15 ] 李 大 伟 , 杜 洪波 , 周 孝 林 , 等 . 基于 “用 户 画 像 ”挖掘 的 图 书 推荐 

App 设计 [了 ]. 软件 ,2018 ,39(5 ) :35 -37. 

[16] 昔 张 俊杰 . 基于 数据 分 析 的 资讯 类 App 

[Dj]. 北 京 : 中 国 科学 院 大 学 ,2017. 

[17] 郭 伟 . 基于 云 平 台 的 科技 期 刊 APP 开发 方法 研究 以 “长 
山 学 术 汇 ”为 例 [ 媚 . 中 国 科 技 期 刊 研究 ,2018 ,29(5 ) :485 - 
490. 

[18] 王 慧 . 学 术 期 刊 APP 使 用 的 影响 因素 研究 [ 相 . 

学 报 (社会 科学 版 ) ,2017,19(6) :76 -82. 

[19 ] 刘 勇 , 吴 翔 宇 , 解 本 巨 . 基于 动态 用 户 画 像 的 信息 推荐 研究 [J]. 

计算 机 系统 应 用 ,2018 ,27(6) :236 - 239. 

[20] 王 益 成 , 王 萍 . 基于 用 户 动态 画像 的 科技 情报 服务 推荐 模型 构 

建 研究 [省 .情报 理论 与 实践 ,2019 ,42(4) :83 -88. 

[21] 张 慧 敏 . 基于 生活 方式 转型 的 动态 用 户 画像 研究 LD]. 无 锡 : 江 

南大 学 ,2018. 

[22 ] 张 莉 曼 , 张 向 先 , 卢 恒 ,等 . 知识 直播 平台 付费 用 户 和 群体 画像 研 

究 [中 .图 书 情报 工作 ,2019 ,63(5):84 - 91. 

[23] 刘 漫 . 基于 TPB 的 大 学 生 信 息 搜 寻 行为 决定 因素 实证 研究 

[中 .图 书馆 工作 与 研究 ,2014(5) :39 - 44. 

[24] LEWIN K. Field theory in social science[ M]. New York: Harpp- 

erand Brother Publishers, 1951 :239 - 240. 

[25 ] 许 鹏 程 , 毕 强 , 张 哈 , 等 . 数据 驱动 下 数字 图 书馆 用 户 画 像 模 型 

构建 [J]. 图 书 情报 工作 ,2019 ,63(3) :30 -37. 

[26] 衡 书 鹏 , 周 宗 奎 , 雷 玉 菊 ,等 . 现实 - 理想 自我 差异 对 青少年 游 
戏 成 冶 的 影响 :化 身 认 同和 沉浸 感 的 序列 中 介 作 用 [J. 心理 


户 画 像 设 计 与 应 用 


和 南 石油 大 学 


58 


改 ( 


张 莉 曼 ， 张 向 先 ， 呈 雅 成， 等 . 基于 小 部 据 的 社交 类 学 术 App 用 户 动态 画像 模型 构建 研究 [] Ci) 扣 山 胸 《 乔 1 
5):50—59. 

与 行为 研究 ,2018 ,16(2) :253 -260. knowledge discovery and data mining. New York:ACM ,2006:554 
[27] 石 晓 嫌 .管理 团队 认 知 能 力 对 决策 效果 的 影响 机 制 研 究 [ D1]. 一 560. 

沈阳 :沈阳 工业 大 学 ,2018. [37] 王 富 鹏 . 演化 聚 类 研究 及 其 在 金融 股票 市 场 的 应 用 L[D]. 杭州 : 
[28] 张 继 东 , 骆 莎 莎 . 基于 情景 化 偏好 的 移动 图 书馆 用 户 行为 感知 浙江 大 学 ,2014. 

研究 [J]. 情报 科学 ,2018 ,36(9) :52 -56. [38] 张 琳 , 件 向 伟 . 基于 Canopy + K-means 的 中 文 文本 聚 类 算法 
[29] 杜 独 ,高 长 元 . 移动 电子 商务 环境 下 个 性 化 情景 推荐 模型 研究 [可 .图 书馆 论坛 ,2018 ,38(6) :113 -119. 

[可 .情报 理论 与 实践 ,2017 ,40(10) :56 - 61. [39 ] 卢 建 云 , 朱 庆 生 , 吴 全 旺 . 一 种 启发 式 确定 聚 类 数 方法 [中 .小 型 
[30] 余 传 明 , 田 讲 , 郭 亚 静 ,等 . 基于 行为 - 内 容 融 合 模 型 的 用 户 画 微型 计算 机 系统 ,2018 ,39(7) :1381 - 1385 

和 象 研 究 [ 相 .图书 情报 工作 ,2018 ,62(13 ) :54 - 63. [40] OLIVEIRA M,GAMA J. A framework to monitor clusters evolution 
[31] BLEI D M, NG A Y, JORDAN M I Latent dirichlet allocation applied to economy and finance problems[ J |. Intelligent data anal- 

[J]. Journal of machine leaming research ,2003,3 (1 ) :993 — ysis,2012 ,16(1) :93 -111. 

1022. [41] KRITIKOU Y, DEMESTICHAS P, ADAMOPOULOU E, et al. 
[32] 曾子 明 , 万 品 玉 . 融合 演化 特征 的 公共 安全 事件 微 博 情感 分 析 User profile modeling in the context of Web-based learning manage- 

[可 . 情报 科学 ,2018 ,36(12 ) :3 -8 ,51. ment systems [J ]. Journal of network & computer applications ， 
[33 ] 陈 添 源 . 高 校 移动 图 书馆 用 户 画 像 构建 实证 [可 . 图 书 情报 工 2008 ,31(4) :603 - 627. 
下 = 作 ,2018 ,62(7) :38 -46. 

陈 娟 , 吴 卓 青 , 邓 胜利 . 基于 层次 聚 类 法 的 “ 知 乎 ”用户 细 分 与 作者 贡献 说 明 : 

一 人 和 et | 张 莉 曼 :论文 思路 的 提出 与 初稿 撰写 

9 惠 . 演化 聚 类 算法 研究 及 其 应 用 [D]. 扬州 :扬州 大 学 ， 张 向 先 ;论文 框架 的 指导 与 确定 ， 
[364 CHAKRABARTI D, KUMAR R, TOMKINS A. Evolutionary clus- 吴 雅 威 :论文 修改 与 校对 ; 

tering[ C] // Proceedings of the 12th ACM SIGKDD conference on 郭 顺利 :论文 修改 与 校对 。 


Wt 


202: 


Research on the Construction of Dynamic Portrait Model of 


Social Academic App Users Based on Small Data 
Zhang Liman: Zhang Xiangxian Wu Yawei Guo Shunli” 
:School of Management, Jilin University, Changchun 130022 
“Media College, School of Qufu Normal University, Rizhao 276826 


-CS Absiract: | Purpose/significance | Enrich and expand the theoretical research system of building dynamic por- 


InaXIV 


人 fa; of social academic App users based on small data, so as to provide ideas and reference for the social academic 
App platform to effectively predict the evolution trend of user behavior and improve the precise service level. | Meth- 
od/ process | Firstly, based on the deep analysis of concept and characteristics of the small data, combined with the 
feature of social academic App, this paper from two aspects of user behavior and the surface of deep factors designed 
dynamic portrait label system. Then collected the small data with strong correlation and high value with the user as 
the data support of the portrait, and clarified the acquisition and processing method. Finally, it put forward the re- 
search method to realize the dynamic portrait and form the overall frame model. | Result/conclusion | The construc- 
tion of dynamic portrait of social academic App users based on small data can effectively refine the granularity of por- 
trait , and improve the lag of previous portrait, which has important reference value for the promotion of accurate serv- 
ice level of social academic App platform under data-driven situation. 


Keywords: small data social academic App dynamic portrait behavior prediction 
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